https://www.corpusthomisticum.org/it/index.age
De quoi s’agit-il ?
Roberto Busa (1913 — 2011) était un prêtre jésuite italien spécialiste de Thomas d’Aquin
According to the scholarly practices, I first > searched through tables and subject indexes for the words of praesens and praesentia. I soon learned that such words in Thomas Aquinas are peripheral: his doctrine of presence is linked with the preposition in. My next step was to write out by hand 10 000 3“×5” cards, each containing a sentence with the word in or a word connected with in. Grand games of solitaire follow. (Busa, 1980)
Réalisation immédiate : la tâche est trop vaste pour être faite sans assistance
Il se met donc en quête de « machinerie » pour l’aider
any gadget that might help (Busa, 1980)
Il parvient à obtenir l’aide gracieuse d’IBM pour le réaliser
Le projet a duré 30 ans, pour produire une transcription complète de 179 ouvrages en forme lisible par des machines de l’époque (des cartes perforées !), et une lemmatisation semi-automatique.
On identifie souvent l’index thomisticus comme le premier travail d’humanités numériques mené à terme, même si Busa suggère que d’autres initiatives plus anciennes ont existé.
Quoi qu’il en soit, c’est un travail d’une ampleur exceptionnelle pour l’époque qui a eu une influence considérable sur le développement des HN et du TAL en montrant que ce genre d’entreprise était possible.
Revenons sur la thèse de Busa
Le lecteur ne doit pas simplement attacher ses propres significations aux mots qu’il lit, mais il doit aussi rechercher les significations que les mots ont pour l’auteur lui-même.
Elle reflète entre autres les idées dites du tournant linguistique en philosophie.
Par ailleurs tous les mots fonctionnels et grammaticaux (qui dans mon esprit ne sont pas vides du tout mais au contraire très riche sur le plan philosophique) manifestent la logique la plus profonde de l’être qui génère les structures de base du discours humain ». (Busa, 1980)
La notion de statistiques textuelles est antérieure à Busa et se développe parallèlement à ses travaux (Léon et Tellier, 2014).
On parle autour des années 80 de lexicométrie, puis autour des années 2000 de textométrie, pour rendre plus explicite qu’on ne se limite pas au simple lexique (Pincemin, 2020).
Ces évolutions vont de pair avec
L’intérêt grandissant pour les méthodes de statistiques textuelles va aussi de pair avec la création de logiciels permettant à des non-informaticien⋅ne⋅s de les mettre en œuvre :
R. Busa. 1980. The Annals of Humanities Computing: The Index Thomisticus. Computers and the Humanities, 14(2):83‑90.
Alain Desrosières. 2010. La politique des grands nombres. La Découverte, éditions.
Serge Heiden, Jean-Philippe Magué, et Bénédicte Pincemin. 2010. TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement. In Luca Giuliano Sergio Bolasco Isabella Chiari, éditeur, 10th International Conference on the Statistical Analysis of Textual Data, volume 2, pages 1021‑1032, Roma, Italia, mai. Edizioni Universitarie di Lettere Economia Diritto.
Ludovic Lebart et André Salem. 1994. Statistique textuelle. Dunod, éditions.
Jacqueline Léon et Isabelle Tellier. 2014. Le data turn. Des premiers traitements statistiques du langage (1950-60) à la fouille de textes. L’information grammaticale(142):30‑39, juin.
Bénédicte Pincemin. 2020. La textométrie en question. Le Français Moderne - Revue de linguistique Française, 88(1):26, mars.